从大数据中寻找复杂系统的核心变量
电话:010-58330898 手机:18501361766
微信:tech99999 邮箱:qianyanjun@techxcope.com
来源:集智俱乐部
译者:陈清华、高晓慧
导语:尽管大数据的收集越来越容易,但随着从微观到宏观的尺度(scale)变化,系统行为会发生非线性的变化,这让模型构建、行为预测困难重重。如何跨越系统的尺度变化,挖掘出对系统行为真正起到影响的重要信息,是复杂系统研究成败的关键。
美国新英格兰复杂系统研究所(New England Complex Systems Institute, NECSI)的 Yaneer Bar-Yam(创始人及所长)在 2016 年撰写了这篇综述,梳理了重整化群、临界相变、复杂度曲线、混沌等多尺度分析方法,并以生物进化、多样性、种族暴力、市场价格波动等具体问题做了分析,尝试总结出一套复杂系统跨尺度研究的通用框架。
论文题目: From Big Data To Important Information 论文地址: https://necsi.edu/from-big-data-to-important-information
图 1. 滑块 (某时刻速度为 v) 沿斜面滑动的示意图。
图2:水的相图。液态水和气态水之间的转变停止在临界点(红点)。在临界点,类液体和类气体密度之间的波动存在于整个系统,因此系统不再平滑(违反微积分的假设),平均值失效(违反统计的假设)。为了解决这个问题和其他类似问题,人们发展出一种考虑跨尺度行为的新方法,即重整化群。
图3:复杂度曲线(尺度的函数)。
图4:一个实数(上面的,x)有无穷的位数,确定一个点的位置,在精度加倍(尺度减半)的情况下,会增加2种(位置的)可能性,信息量增加1。单个实数值并不能很好的表示整个复杂系统,因为复杂系统的信息量不同于尺度增加(y),其位数的增加应类似于图3所表述的复杂度曲线那样。
图5:当我们关注最大尺度时,系统行为会映射到简化的模型上,每个模型都可适用于具有广泛不同的微观细节的大量可能系统。此图显示的一些例子:高斯分布、波动、从有序到无序(如本文讨论的相变)、图灵斑图、Navier-Stokes方程描述的流、吸引子动力学。少数几个模型就可以捕获大量不同系统的行为,其根源是普适性,具体系统是普适性行为类的成员。
A. 进化动力学 Evolutionary dynamics
B. 多尺度生物多样性(Multiscale biodiversity)
C. 种族暴力(Ethnic violence)
图6:1991年南斯拉夫人口普查数据被转换成空间表示形式[左],并用多个体模拟预测可能与邻近群体发生冲突的人口[红色叠加层,左和右]。该预测与报告为大规模战斗和屠杀地点的城市位置[黄色圆点,右]非常吻合(相关性为90%)
D. 市场价格动力学(Dynamics of market prices)
图7:价格变动本身会刺激交易者,从而导致交易者之间的相互影响,购买可以引起更多的买入,卖出可以引起更多的卖出,最终这种从众效应会引发市场价格泡沫或暴跌。更准确地说,泡沫的产生是两种不同类型投资者之间地相互作用:一种是跟随趋势的投机者,他们在价格上涨时买进,在价格下跌时卖出;另一种是基本值投资者,他们根据供求信息,低价买进,高价卖出。
E. 网络动力学及集群行为:恐慌和市场价(Network dynamics and collective behaviors: Panic and market prices)
穿越模型的参数空间,系统行为表现出有序到无序的相变,类似于图2中水到气的相图。该模型有两个参数,它们一起控制内部和外部原因的相对重要性,以及正向和反向外部影响的相对比例。当我们在参数空间中移动时,在“共同运动”部分的统计分布中可以观察到三种不同类型的行为。在内部相互作用较弱的无序区(对应于水的相图中的高温情况),我们有一个“上升”相,对应于一个有偏的分布,其中大部分股票上涨(正价格变动),以及“下降”相——对应于另外一种有偏分布,只有少量股票上涨(负价格变动)。当上下平衡时,分布会在50%分位数左右上有一个单峰。随着元素之间交互作用强度的增加,存在着向集体有序的过渡。在有序区,存在双峰分布,因为内部相互作用而导致两个不同的相存在,相互作用使得大部分元素要么向上运动要么向下运动,它们之间的动态切换很慢。这种切换(翻转)对应着一阶相变边界。该模型的二阶临界点,即无序状态和有序状态之间的转换,是唯一具有平坦分布的状态。
该模型与多只股票的动态有关,而不只是单个股票的行为。这个行为也可以由交易代理人模型产生,通过它们之间的影响网络来表示。但是,许多细节是不相关的,而需要被抽象为聚合行为。如上所述,网络的结构不会改变行为,并且与交易者代理人模型不同,价格代理人的行为规则不需要不同。我们发现,自然行为是独立行动和集体行动之间的一种过渡,后者可以被认为是恐慌。这有助于确定集体恐慌的度量方法,并将其用于预测恐慌发生后引起的金融危机。
将恐慌的概念与影响模型联系起来,恐慌中的模仿对应于相互影响。衡量市场动态的大多数标准指标是波动率和平均相关性。作为替代,通用模型建议将联动指数(co-movement)作为大规模集体行为的一种度量。联动指数与波动率或相关性之间的本质区别在于,若价格变动之间存在相同的关系,但单个价格变动变大,会让波动率和相关性都会变大。这样,即使价格走势大多是独立的,这也可能导致较大的波动率或平均相关性。不同的是,即使价格变动很小,联动指数也可能很大。因此,联动指数可能是我们一直寻找的集体行为的更直接的度量指标。这个假设是有道理的,联动指数对于描述恐慌和神经紧张会很有用。
通用模型被分析,联动指数的分布被计算出来,其预测能力被日市场行为的实证分析所证实。值得注意的是,这些预测在真实的金融数据上得到了证实,涵盖了近期的经济危机以及早期的市场动态。联动指数数据还可用于评估最近的市场危机和历史的单日崩盘是内部产生的还是外部触发的。在分析时,现实世界的行为将仅采用参数空间的平衡的正负新闻一维子空间来处理。联动指数的高水平临界点(即恐慌)被发现可以单一地识别2008年的市场崩盘。由于临界点是唯一的,因此无需调整模型参数即可获得此对应关系,因此可以将其视为金融危机的零参数理论。此外,联动指数值在市场崩盘之前一天就已经大大增加,它为即将发生的崩盘提供了一个明确的预警信号。因此,持续性增强的恐慌行为是每个市场崩盘的预警信号。
这个模型预测性能非常好,它预测了25年以来的一些最大日崩盘,没有任何误报或漏报。一些其他测算可以用来预测市场危机,如波动率、股票价格之间的相关性和协方差。这些指标中,波动率和相关性是最常用的风险预测因子,但它们的预测能力最低,有三个错误预测和四个正确预测;协方差是一个相对较好的预测因子,只有一个错误;多尺度模型提供了最佳的预测效用,没有任何错误 [97]。
我们注意到,联动分数的大小分布(股票价格向同一个方向变动的数量,即行为一致的成员数)是类似于复杂度曲线的多尺度分解。
F. 原理和多尺度分析(Principles and multiscale analysis)
在本节中,我们将回顾根植于复杂性曲线中的多尺度分析中的几个一般性特征和原理,以便在不同的复杂系统上应用。关于多尺度分析的原理及其在构架基本结构理论中的使用以及对多尺度结构的其他度量(如信息的边际效用)的更多讨论,可以参考 [124]。这些原理将提供了一种对社会和生物系统的一类应用的理解方法,该方法已被发展用于理解各种系统之间的结构和功能之间的关系。利用多尺度信息建立模型需要具体的数据来描述系统的尺度和动态行为。但是,在某些情况下,特定尺度的信息量本身可以提供对系统行为的洞察。在这里,我们关注一些这样的示例,以说明复杂度曲线的功效。
F. 原理和多尺度分析(Principles and multiscale analysis)
G. 求和规则:基本激发强度(Sum rule: Elementaryexcitation strength)
H. Ashby 定律及多尺度信息(Ashby’s law andmultiscale information)
I. 关于复杂度曲线的形式理论(Formal theorems aboutcomplexity profile)
J. 基于数据的多尺度信息计算(Calculations ofmultiscale information based upon data)
K. 组织响应(Organizational response)
作用于系统的外力,它们的强度和影响系统的方式。限制这种影响的障碍/边界会所起的重要作用,以及确定直接作用的组元。 影响、传染、模仿、放大以及恢复的内在机制会促使做同一事情或者耦合事情的组元数量的生长变化。组元在一、二或三个空间维度上或更一般地在网络中相互连接的方式通常很重要。同样,组元之间的影响可以是简单地增强,或相反或者其他形式的耦合。 噪声及其在触发新行为、独立性和耗散性方面的作用。噪声可以被认为是满足与精细尺度行为相关的传统统计假设的一种外力。单个事件通常被近似为具有局部的和小规模的影响,而独立事件通常被认为是会遍及整个系统而直接影响所有组元的事件。
X. 译者说明
参考文献:
一网打尽系列文章,请回复以下关键词查看: |
---|
创新发展:习近平 | 创新中国 | 创新创业 | 科技体制改革 | 科技创新政策 | 协同创新 | 科研管理 | 成果转化 | 新科技革命 | 基础研究 | 产学研 | 供给侧 |
热点专题:军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五 | 创新教育 | 军工百强 | 试验鉴定 | 影响因子 | 双一流 | 净评估 |
预见未来:预见2016 |预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 |
前沿科技:颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | 5G | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体 | 脑机接口 | 传感器 |
先进武器:中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 直升机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 |
未来战争:未来战争 | 抵消战略 | 水下战 | 网络空间战 | 分布式杀伤 | 无人机蜂群 | 太空战 | 反卫星 |
领先国家:美国 | 俄罗斯 | 英国 | 德国 | 法国 | 日本 | 以色列 | 印度 |
前沿机构:战略能力办公室 | DARPA | 快响小组 | Gartner | 硅谷 | 谷歌 | 华为 | 阿里 | 俄先期研究基金会 | 军工百强 |
前沿人物:钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云 | 奥巴马 | 特朗普 |
专家专栏:黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银 | 廖孟豪 | 谭铁牛 | 于川信 | 邬贺铨 |
全文收录:2017文章全收录 | 2016文章全收录 | 2015文章全收录 | 2014文章全收录 |
其他主题系列陆续整理中,敬请期待…… |